Olá participantes!

Bem-vindos à GES109!

Izabela Oliveira - Luiz Pala

2024-01-01

Conhecendo os professores

Izabela Oliveira

Luiz Otávio Pala

Conhecendo uns aos outros

  • Qual é o seu nome e de qual cidade você é?

  • Quais são seus interesses ou hobbies fora da sala de aula?

  • Já conhecia a UFLA?

  • Já teve alguma experiência com estatística ou fez algum curso técnico?

Sites importantes

  • Campus virtual: é o ambiente onde estarão disponíveis as informações e conteúdos das disciplinas. Você pode acessá-lo nesse link.

  • Biblioteca: temos uma biblioteca física e alguns livros também estão disponíveis virtualmente.

  • Obs.: para ter acesso à biblioteca, vocês precisarão solicitar o cartão de identifcação.

Nossa biblioteca virtual

Estatística e Ciência de dados

Alguns autores discutem as terminologias Ciência de dados e Estatística.

  • Morettin e Singer (2021): Ciência de dados consiste principalmente na aplicação de técnicas estatísticas a problemas que exigem grande capacidade computacional;

  • Outros apontam que a Ciência de Dados é uma área multidisciplinar, envolvendo campos como computação, matemática, estatística.

Funcionamento da GES-109

  • Ainda nessa semana, serão apresentadas as normas da nossa disciplina;

  • Bem como os horários de assistência;

  • Questões de acessibilidade do site e inclusão;

Uma visão sobre a GES109

Visualização de dados

A visualização de dados é uma tarefa muito importante na estatística. Um bom processo de visualização poderá:

  • apontar situações esperadas ou não esperadas a respeito do comportamento dos dados;

  • sugerir se estamos fazendo a pergunta adequada e respeito do fenômeno ou se precisamos coletar novos dados.

A visualização exige que o humano interprete as informações transmitidas. Para isso, é necessário:

  • ser claro na informação que queremos transmitir;

  • escolher formas e gráficos apropriados;

  • evitar poluição visual com elementos desnecessários;

  • rotular os eixos e inserir títulos que facilitem a compreensão;

  • usar cores que sejam fáceis de distinguir e que contrastem bem entre si.

Um bom gráfico possibilita a localização de tendências e relacionamentos que podem passar despercebidos se observarmos apenas os números (Schmulle, 2019).

Exemplo 1

Suponha que estamos fazendo uma pesquisa sobre a idade de um grupo de 11 pessoas. Ao anotar todas as idades, obtivemos o seguinte gráfico:

  • O que podemos dizer a respeito desse gráfico?

  • Há alguma informação ou comportamento não esperado nesses dados?

Exemplo 2

Estamos analisando, de forma espacial, o aumento populacional de Minas Gerais entre os anos de 2010 e 2022, utilizando os dados do Censo.

Obs.: O Censo é a principal fonte de dados sobre a situação de vida da população nos municípios e localidades. São coletadas informações para a definição de políticas públicas em nível nacional, estadual e municipal (Brasil, 2024).

População MG - 2010

População MG - 2022

As populações cresceram?

Que informações podemos extrair dessa figura?

Transformação de dados

A visualização é crucial para obter ideias, porém, é raro ter os dados prontos exatamente como são necessários. Frequentemente precisaremos:

  • criar novas variáveis;

  • obter resumos das variáveis;

  • reordenar as observações para tornar os dados mais fáceis de trabalhar.

Exemplo 1

Voltando ao exemplo do crescimento populacional, podemos ordernar as cidades de acordo com o tamanho da população em 2022.

# A tibble: 6 × 3
  name_muni              pop_2010 pop_2022
  <chr>                     <dbl>    <dbl>
1 " ABADIA DOS DOURADOS"     6704     6272
2 " ABAETE"                 22690    22675
3 " ABRE CAMPO"             13311    13927
4 " ACAIACA"                 3920     3909
5 " ACUCENA"                10276     8943
6 " AGUA BOA"               15195    12589
# A tibble: 6 × 3
  name_muni         pop_2010 pop_2022
  <chr>                <dbl>    <dbl>
1 " BELO HORIZONTE"  2375151  2315560
2 " UBERLANDIA"       604013   713224
3 " CONTAGEM"         603442   621863
4 " JUIZ DE FORA"     516247   540756
5 " MONTES CLAROS"    361915   414240
6 " BETIM"            378089   411846

Modelagem de dados

O objetivo de um modelo é fornecer um resumo simples e de baixa dimensão de um conjunto de dados. Modelos nos ajudam:

  • a extrair padrões conhecidos;

  • a descobrir relacionamentos interessantes;

  • Obs.:Durante a graduação em Estatística, veremos procedimentos para a construção de modelos.



Análise exploratória de dados - EDA

A EDA é um ciclo iterativo, em que temos os seguintes passos:

- Geramos perguntas sobre os dados;

- Procuramos respostas visualizando, transformando e modelando os dados;

- Refinamos as perguntas e/ou geramos novas perguntas.

Ferramentas

O Microsoft Office e similares

Algumas empresas já oferecem serviços para análise e visualização de dados. Vejamos exemplos:

  • Microsoft Azure: integra-se com várias ferramentas de visualização de dados (Microsoft, 2024);

  • Looker Studio: converte dados em informações fáceis de ler e compartilhar (Google, 2024);

  • Google Colaboratory (COLAB): é adequado para aprendizado de máquina, análise de dados e educação (Google, 2024).

Exemplo: Google Colab

O programa R

É um programa livre para computação estatística e gráfica.

RStudio

É um ambiente de desenvolvimento integrado (Integrated Development Environment - IDE). Uma IDE é um conjunto de ferramentas disponíveis em uma interface mais amigável para a programação.

Alguns Benefícios:

  • Ajudar os desenvolvedores a serem mais produtivos (POSIT, 2024);
  • Possibilitar uma melhor indentação (‘organização’) do código.

R logo

  • R é uma linguagem de programação estatística;
  • É facilmente extensível com pacotes.

RStudio logo

  • O RStudio é uma IDE, por exemplo: “Eu escrevo código R na IDE do RStudio”.
  • É comumente utilizado por programadores R e cientistas de dados;

R vs. RStudio

On the left: a car engine. On the right: a car dashboard. The engine is labelled R. The dashboard is labelled RStudio.

Instalações

Nessa parte da aula, aprenderemos as etapas iniciais de instalação dos programas R, RStudio e MiKTeX.

Instalação do R

Download do R (.exe)

O primeiro passo é acessar esse link para encontrar o arquivo executável.

O executável é um arquivo que contém o programa a ser instalado, de modo que o nosso sistema operacional o execute diretamente.

Seguindo o link, essa página será aberta em seu navegador:

Acesse o item Download R-4.3.2 for Windows.

Etapa final da instalação

  • Procure o arquivo R-4.3.2-win em Downloads e execute-o.

  • Autorize as permissões de instalação;

  • Selecione o idioma “Português Brasileiro”;

  • Clique em “Avançar” para proceder com a instalação.

Instalação do RStudio

Download do RStudio (.exe)

Acesse o link e entre em “Download RStudio desktop for Windows”.

  • Busque o arquivo em sua pasta “downloads” e execute-o;

  • Permita que o aplicativo faça alterações em seu dispositivo;

  • Proceda com a instalação;

  • Feito isso, o RStudio estará instalado em sua máquina;

  • Obs.: Para outros sistemas operacionais, verifique as opções de instalação nesse link.

Instalação do MiKTeX

Por quê devo instalar o MiKTeX?

  • O MiKTeX é um programa que nos permite construir arquivos no formato TeX/LaTeX;

  • Isso permite que façamos textos e documentos de alta qualidade;

  • Utilize esse link para fazer o download do MiKTeX em seu computador;

Etapa de instalação

  • Encontre o arquivo basic-miktex-24.1-x64 em sua pasta downloads e execute-o;

  • Aceite as condições e prossiga;

  • Proceda a instalação conforme as opções recomendadas.

Fim das instalações